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摘要 : [目的 /意义 ] 社 区 画像 对 于 解决 社交 网 络 信息 过 载 问 题 ,实现 深层 次 的 个 性 化 知识 服务 意义 重大 。 
针对 社区 画像 研究 现状 ,进行 客观 的 分 析 与 评价 ,以 期 为 社区 画像 进一步 研究 与 应 用 提供 思路 。[ 方 法“ 过程] 
通过 文献 调研 与 分 析 , 从 研究 内 容 、 方 法 体系 和 应 用 场景 3 方面 对 社区 画像 进行 调研 、 分 析 与 归纳 ,评述 其 研究 
现状 ,提出 未 来 的 重点 研究 方向 。[ 结果 /结论 ] 以 分 析 静 态 用 户 数 据 ,采用 相似 性 方法 画像 为 主 ,聚焦 于 推荐 服 
务 、 社 区 发 现 等 传统 应 用 。 当 前 社区 画像 研究 尚 处 在 起 步 阶 段 ,其 数据 对 象 、 研 究 方法 与 技术 手段 都 有 待 丰 富 ， 


性 区 画像 的 发 展 前 景 与 应 用 空间 广阔 , 需 进一步 开拓 。 


O 关键 词 : 社区 画像 用 户 数据 内 容 画像 传播 画像 ”社区 发 现 推荐 系统 ”知识 服务 
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微 信 、 微 博 、Academia 以 及 ResearchGate 等 社交 
网 绵 飞 速 发 展 , 越 来 越 多 的 用 户 利用 社交 网 络 发 布 
或 传播 信息 .分享 体验 和 观点 ,寻求 建议 和 合作 "一 。 
随 着 社交 网 络 用 户 群 体 的 不 断 扩大 ,社交 网 络 平台 
中 3 玫 户 数据 分 为 用 户 个 人 数据 、 社 会 关系 数据 、 行 
为 数据 与 用 户 生 成 内 容 (user generated content, UGC ) 
等 名 。 利 用 画像 技术 对 这 些 数据 进行 数据 建 模 与 知 
识 摊 气 , 可 从 中 提炼 出 有 价值 的 信息 和 知识 ,实现 深 
层次 的 个 性 化 知识 服务 中 。 现 有 画像 研究 多 集中 在 
单 用 户 画 像 (individual user profiling) ,其 通过 收集 与 
分 析 用 户 数据 ,以 标签 形式 刻画 用 户 特征 ,挖掘 这 些 
特征 的 潜在 价值 信息 ,进而 抽象 出 用 户 的 信息 全 
貌 “-" 。 单 用 户 画 像 在 揭示 社交 网 络 整体 特征 方面 
存在 一 些 不 足 , 如 :从 数据 层面 上 看 , 单 用 户 画 像 
没有 充分 利用 用 户 社会 关系 数据 ,难以 全 面 刻 画 用 


为 了 应 对 这 些 挑战 ,群体 画像 (group profiling) 、 社 
区 画像 (community profiling) 等 研究 相继 出 现 ”。 现 有 
研究 并 没有 对 群体 画像 和 社区 画像 进行 严格 区 分 , 因 
此 本 文 统称 为 社区 画像 。 社 区 画像 是 单 用 户 画 像 的 延 
伸 , 具 有 重要 研究 意义 和 应 用 价值 。 首 先 ,社区 画像 可 
以 帮助 更 直观 地 区 分 显 式 社区 (explicit communities ) 
与 隐 式 社区 (implicit communities) ,分 析 用 户 聚 合 行为 
和 动机 ,辅助 社区 发 现 "”。 其 次 ,社区 画像 可 以 更 准 
确 地 过 滤 UCC 噪音 数据 ,充分 利用 用 户 社 会 关系 数 
据 ,完善 与 丰富 单 用 户 画 像 ”。 此 外 ,社区 画像 还 可 
更 全 面 .精准 地 支持 群体 兴趣 跟踪 "”、 社 区 知识 可 视 
化 "社区 排名 "推荐 系统 ”以 及 网 络 昔 销 '" 等 
应 用 。 

AS 3C HG LA“ community profil * 、group profil * 、 
社区 画像 .群体 画像 ”等 为 关键 词 在 谷歌 学 术 .百度 


户 亲 近 远 朴 的 社会 关系 ;@ 从 技术 层面 上 看 , 单 用 
户 画 像 难以 准确 过 滤 UGC 中 的 大 量 噪音 数据 ,导致 
画像 结果 常常 存在 偏差 ” ;@@ 从 应 用 层面 上 看 ,对 社 
区 用 户 群 体 进行 画像 更 有 利于 深层 次 揭示 社区 特 
征 ,支持 更 广泛 的 应 用 ” 。 


学 术 、 知 网 Elsevier 和 Springer 等 搜索 引 敬 和 学 术 数 
据 库 中 进行 检索 ,得 到 相关 文献 58 篇 。 然 后 从 研究 
内 容 方法 体系 和 应 用 场景 3 个 方面 对 社区 画像 进行 
综述 。 最 后 总 结 现 有 社区 画像 研究 的 不 足以 及 未 来 
的 发 展 方向 。 
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1 社区 画像 研究 内 容 


1.1 社区 画像 概念 

为 了 应 对 单 用 户 画 像 无 法 满足 群体 推荐 需求 的 挑 
战 ,J.F. Mccarthy FU T D. Anagnost!™ 1 提出 通 tzt X mj 
像 来 挖掘 小 群体 的 兴趣 偏好 ,来 为 一 组 用 户 提供 推荐 
服务 。 如 PolyLens 系统 主要 向 2 -4 人 的 群 组 提供 电 
影 推荐 "” 。 随 着 社交 网 络 的 兴起 ,用户 生成 内 容 的 激 
增 以 及 数据 挖 据 等 技术 的 发 展 ,社区 画像 的 对 象 由 小 
群体 发 展 成 为 用 户 规模 更 大 信息 更 为 丰富 、 应 用 场景 
更 为 广泛 的 社区 ,如 对 Twitter Blog 等 大 型 社交 网 络 中 
的 社区 进行 画像 ” 

社区 画像 是 一 个 比较 新 的 研究 信 


域 ,学 术 界 对 其 


知名 还 oe L. Tang”! M. Ak- 
bati ZW. Yul? K. Ashish!) #14 AO! 等 从 画 


区 画像 本 质 是 成 员 信息 的 集合 ,其 应 包括 成 员 个 人 属 
性 .成 员 偏 好 数据 、 社 区 形成 原因 以 及 社区 资源 等 ;I. 
Christensen 等 2 在 D. Q. Zhang 的 基础 上 进一步 指出 
社区 由 一 系列 具有 相互 关系 的 成 员 组 成 ,社区 画像 还 
应 包含 成 员 的 社会 关系 数据 。 何 娟 ”从 画像 技术 出 
发 ,指出 社区 画像 则 在 挖掘 社区 特征 ,综合 运用 多 种 数 
据 挖掘 方 法 ,分 析 具 有 相似 特征 的 用 户 群体 ,提炼 出 每 
个 群体 的 共同 特征 ,进而 针对 不 同类 别 的 用 户 群 体 分 
别 建 立 有 代表 性 的 典型 用 户 画 像 。A. Salehi ”和 万 
腾 呈 :等 从 画像 应 用 出 发 ,认为 社区 画像 通过 挖掘 用 户 
群体 的 使 用 习惯 .访问 兴趣 等 特征 ,以 支持 社区 排名 、 
兴趣 跟踪 和 社区 可 视 化 等 社区 层面 的 应 用 。2017 年 ， 
H. Y. Cai 等 站 规范 了 社区 画像 的 概念 ,指出 社区 画像 
的 本 质 是 用 户 画 像 信息 的 融合 ,从 社区 内 容 和 社区 交 


是 的 出 发 ,认为 社区 画像 旨 在 构建 社区 描述 框架 , 刻 
加 和 区 群体 共同 的 特征 属性 与 偏好 ,揭示 社区 内 涵 、 特 
rge. D. Q. Zhang 等 2 从 画像 数据 出 发 ,指出 社 


互 两 方面 揭示 社区 特征 ,并 将 社区 内 容 定义 为 内 容 画 
像 (content profile) ,社区 交互 定义 为 传播 画像 (diffu- 
社区 画像 的 相关 概念 如 表 1 所 示 。 


sion profile ) 。 


表 1 社区 画像 相关 概念 


O M 核心 内 容 相关 描述 
CHR AH 发 现 社区 特征 旨 在 发 现 社区 的 基础 局 性 和 代表 整个 社区 的 共同 特征 [5 =) 
GN 反映 社区 偏好 柄 合 单 用 户 画像 ,以 反映 社区 群体 的 共同 偏好 [1 
O ARLE AR HES ALK PSR ,特性 与 功能 ,有 助 于 更 好 的 理解 社区 [1 
Aie 成 员 信息 集合 包括 成 员 属性 、 偏 好 、 社 会 关系 ,社区 形成 原因 以 及 社区 资源 等 数据 20 -2 1 
< 你 技术 社区 特征 挖 所 综合 运用 分 类 , 聚 类 ,复杂 网 络 分 析 .机 器 学 习 等 数据 挖掘 技术 ,挖掘 具有 相似 特征 的 用 户 群体 ,提炼 群 
Rt 体 的 共性 特征 [2 
Satire 社区 层面 应 用 挖掘 社 区 特征 ,抽象 出 社区 群体 的 使 用 习惯 访问 兴趣 等 特征 信息 ,以 支持 社区 排名 、 社 区 兴趣 跟踪 和 
© 社区 可 视 化 等 应 用 (13 
cq 综合 画像 数据 /维度 /应 用 用 户 画像 信息 的 融合 ,包括 内 容 画像 ,传播 画像 两 方面 ,可 以 支持 基于 社区 理解 的 传播 行为 ,画像 驱动 
; 的 社区 排名 和 画像 驱动 的 社区 可 视 化 等 社区 层面 的 应 用 [241 
ET 社区 画像 模型 息 , 利 用 社区 发 现 算法 生成 隐 式 社区 ”。 图 社区 画 
根据 K. Ashish 等 ”、H. Y. Cai 等 ”、B. Khalid ” 像 :基于 社区 用 户 数据 ,利用 分 类 、 聚 类 ,复杂 网 络 分 


等 后 的 研究 ,社区 画像 模型 可 分 成 4 个 部 分 :四 收集 
数据 :从 各 类 社交 网 络 或 数据 平台 中 获取 用 户 数据 。 


析 、 机 器 学 习 等 数据 挖掘 技术 ,结合 各 类 社区 画像 方法 
进行 社区 画像 ,以 揭示 社区 特征 。@ 画 像 应 用 :展示 社 


@) 形 成 社区 :一 是 基于 用 户 订阅 等 显 性 信息 ,利用 分 类 ”区 画像 的 应 用 场景 ,如 群体 推荐 .寻求 合作 与 辅助 决策 
算法 划分 显 式 社区 ;二 是 通过 分 析 用 户 特征 等 潜在 信 等 。 社 区 画像 模型 如 图 1 所 示 : 
ei Client. zane | p See 
| | | | (Ee 
户 个 人 数据 P 户 订阅 | 明确 成 员 | > 显 式 社区 | 一 | 辅助 社区 发 现 
社会 关系 数据 | | wy | | arame 
户 行为 数据 ; | á g i | see 
n f he A A 
PP REA a ppe o| 发 现 社区 erir | | CER 
| | | | | CAERE] | 
| | enue amie | | 
收集 数据 形成 社区 | 社区 画像 画像 应 
[ we oaks - oe ow >- ak = m m m mm 


1 社区 画像 模型 
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1.3 社区 画像 研究 对 象 

社区 画像 主要 研究 对 象 包括 4 部 分 ( 见 表 2) 。 社 
区 画像 维度 可 分 为 社区 内 容 和 社区 交互 两 类 ;社区 内 
容 定义 了 社区 的 内 涵 , 如 社区 的 兴趣 偏好 .行为 特征 、 
主题 特征 等 ;社区 交互 则 描述 社区 之 间 信 息 传播 特征 ， 
如 社区 之 间 的 信息 传播 模式 、 社 区 演化 等 。 社 区 画像 
的 数据 来 源 主要 包括 社交 网 络 平台 (如 微 博 、Twitter 


等 ) 和 行业 应 用 平台 (如 旅游 ” .图书 等 )。 画 像 技 
术 包 括 本 体 、 特 征 表示 学 习 等 知识 表示 技术 ,特征 提取 
和 特征 选择 等 数据 降 维 技术 ,以 及 聚 类 、 复 杂 网 络 分 
析 ,深度 学 习 等 数据 挖掘 技术 。 社 区 画像 的 核心 应 用 
场景 是 推荐 服务 。 此 外 ,社区 画像 也 可 应 用 于 网 络 营 
销 行为 预测 、 寻 求 合 作 和 辅助 决策 等 。 


表 2 社区 画像 研究 对 象 


画像 维度 数据 集 重要 画像 技术 应 用 场景 
社区 偏好 Batch 26] 语言 模型 辅助 决策 ;推荐 系统 
MovieLens[27] PDGP 住 荐 系统 
Soc/Kids!!4] 分 类 模型 网 络 营销 推广 
Tourism domain[21] 聚合 策略 ERK 
TV program! 7] 复杂 网 络 分 析 EFRI 
读者 数据 集 [221 K-means 聚 类 E 荐 系统 
论文 数据 集 [28] BGLL 算法 /作者 - 主题 模型 辅助 决策 ;寻求 合作 
Habrahabr!??! K-means 382 丰富 用 户 画 像 ;网 络 与 情 监测 
Twitterl8-13] 特征 表示 学 习 / 图 聚 类 /NPLM 社区 可 视 化 ;网 络 营销 推广 
客户 消费 数据 [30] 云 模型 聚 类 网 络 营销 推广 
通话 数据 集 [1”] NESA 社区 发 现 推荐 系统 
医 享 网 [31 概念 格 聚 类 推荐 系统 
Arxiv Co-Autored!32] WRS/Chi-Square/BNS/TF-IDF 辅助 社区 发 现 ;寻求 合作 
Blogcatalog/ Livejounal!?! 分 类 模型 /特征 选择 辅助 社区 发 现 ;寻求 合作 
Enron Emails[10] 机 器 学 习 / 主 题 模型 辅助 决策 ;寻求 合作 ,推荐 系统 
ios 平台 [3] FCM 3828 网 络 营销 推广 
OJEL33] PART 机 器 学 习 / 分 类 模型 辅助 社区 发 现 
Us/UkDataset |!) GSNMF RÆ 一 
农业 数据 集 [34] 本 体 /FCM R 推荐 系统 
音乐 数据 集 [35] FRK 推荐 系统 
T 专家 系统 [25] 一 寻求 合作 
(社区 传播 Coauthor/ Weibo [36] CRM/ 分 类 算法 盘 情 监测 


Twitter/ DBLPL24] 


Weibo[l37 -39] 


CPD 模型 


COLD/ 主 题 模型 /图 模型 聚 类 


与 情 监测 ;社区 可 视 化 
与 情 监 测 ;网 络 营 销 


2 社区 画像 方法 


从 社区 形成 动机 角度 出 发 ,依据 H. Tajfel J. 
C. Turner 等 ” 的 社会 分 类 理论 ,可 将 社区 画像 方法 分 
为 基于 用 户 相 似 性 画像 (user similarities -based profi- 
ling,USP) 和 基于 社区 差异 性 画像 (community differen- 
tiation -based profiling, CDP) 两 大 类 。USP 通过 分 析 社 
区 成 员 共 同 的 兴趣 .相近 的 情感 .观点 或 行为 等 因素 探 
索 社区 形成 的 原因 ,是 研究 的 热点 。USP 又 可 分 为 基 
于 单 用 户 画 像 融合 的 社区 画像 与 基于 用 户 数据 的 社区 
画像 两 种 。 基 于 社区 差异 性 画像 方法 是 通过 分 析 社 区 
内 外 成 员 之 间 的 差异 ,来 刻画 社区 的 特征 ,又 可 分 为 基 
于 完整 社交 网 络 的 差异 性 画像 (differentiation -based 
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group profiling, DGP) 和 基于 社区 自身 成 员 的 差异 性 画 
像 ( egocentric differentiation - based group profiling, 
EDGP) 两 种 。 社 区 画像 方法 见 图 2。 
2.1 基于 单 用 户 画 像 融合 的 社区 画像 

基于 单 用 户 画 像 融 合 的 社区 画像 方法 首先 基于 用 
户 数据 形成 单 用 户 画像 ;然后 计算 不 同 用 户 画像 间 的 
相似 程度 ;继而 将 相似 的 用 户 画 像 聚 为 一 类 ;最 后 将 聚 
在 一 起 的 单 用 户 画 像 进行 融合 ,生成 有 代表 性 典型 用 
户 的 社区 画像 “”” 。 该 方法 的 核心 在 于 采取 合适 
的 聚合 策略 来 对 单 用 户 画 像 进行 融合 ,最 终 形成 社区 
画像 。 唆 合 策略 可 分 为 基于 多 数 的 聚合 策略 、 基 于 
共识 的 聚合 策略 以 及 基于 边界 的 聚合 策略 3 种 |。 
其 中 ,基于 多 数 的 策略 倾向 考虑 多 数 用 户 的 偏好 ,如 相 
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基于 多 数 的 聚合 策略 


基于 单 用 户 画像 融 台 基于 共识 的 聚合 策略 
> 用户 相似 性 
一 | ”社区 行为 画像 
基于 用 户 数 据 HO ”社区 主题 画 
社区 画像 画像 | 
Jik LO EKERN 
基于 完整 社交 网 络 
ee 
基于 社区 自身 成 员 


2 社区 画像 方法 


对 多 数 投票 法 ,痛苦 避免 均值 策略 "等 ;基于 边界 的 
策略 则 只 考虑 个 别 用 户 偏好 特征 ,如 最 小 痛苦 策 
略 "“ ,最 开心 策略 ` 最 受 尊敬 策略 等 ;而 基于 共识 的 策 
咯 则 会 考虑 所 有 用 户 的 偏好 ,如 平均 策略 "” ,乘法 策 
WSO? 、 波 达 计 数 法 、 科 普兰 规则 赞同 投票 .公平 策略 
APS IC. Senot 等 ”采用 平均 策略 .最 受 尊敬 策略 ,多数 
县 策略 .最 小 涌 苦 和 最 开心 策略 ,在 一 个 大 型 的 电视 
节理 数据 集 上 进行 实验 , 发现 基于 平均 策略 的 聚合 效 
见 议 好 的 ,而 最 小 痛 车 .最 开心 以 及 相对 多 数 投票 策略 
JEP ETE. J. Masthoff ® 对 上 述 11 种 聚合 策略 
过 窒 评 价 与 比较 ,发 现 从 用 户 角度 出 发 ,用 户 最 喜欢 的 
是 咬 均 策略 .最 小 痛苦 策略 和 痛苦 避免 均值 策略 ,从 应 


了 一 个 包括 网 络 层 ,交互 层 ,内容 层 与 语义 层 4 个 层面 
的 社区 画像 方法 。 网 络 层 是 从 用 户 之 间 互 相关 注 所 形 
成 的 关系 网 络 的 角度 来 刻画 社区 的 行为 特征 ,如 和 A 关 
注 B,A 和 B 共同 关注 C,A 和 B 共同 被 C 关注 。 交 互 
层 是 分 析 用 户 之 间 的 转发 和 回复 等 关系 数据 ,如 A 转 
发 B,A 回复 B 等 。 内 容 层 是 分 析 用 户 发 布 信息 的 内 
容 之 间 的 包含 关系 ,如 A 发 布 内 容 中 包含 B 的 主题 。 
语义 层 反 应 用 户 共用 标签 信息 ,如 A 使 用 B 的 标签 。 
为 了 降低 UGC 品 音 和 数据 稀 牙 性 的 不 利 影响 ,作者 还 
对 用 户 行为 特征 数据 进行 降 维 ,综合 运用 谱 聚 类 算法 、 
相似 性 约束 以 及 线性 回归 等 形成 了 社区 行为 画像 。 
基于 用 户 评论 行为 ,A. Barysheva 等 ”对 博客 的 讨 
论 参 与 者 进行 群体 行为 画像 ,综合 社区 用 户 特征 ,如 用 
户 数量 、 写 下 评论 的 用 户 数 量 , 被 其 他 用 户 评论 的 数量 
等 ,以 及 博文 特征 ,如 用 户 发 表 博 客 的 数量 、 用 户 评论 
的 博客 的 数量 ,用 户 评论 之 间 的 平均 距离 等 ,基于 上 - 
means 聚 类 来 发 现 社 区 并 形成 社区 行为 画像 。 基 于 用 
户 浏览 行为 ,万 腾 从 用 户 粘性 和 用 户 活跃 上 度 两 个 方 
面 来 提取 用 户 访问 行为 特征 ,采用 改进 的 模糊 聚 类 算 
法 来 发 现 社区 并 形成 社区 行为 画像 ,通过 对 用 户 行为 
数据 的 初始 隶属 度 矩 阵 和 样本 隶属 度 权 重 进 行 改 进 ， 
克服 了 传统 模糊 聚 类 算法 收敛 速度 较 慢 上 且 容 易 受 孤 立 


用 区 度 出 发 ,乘法 策略 是 表现 最 好 的 ,其 他 策略 则 不 能 
存 效 反映 社区 群体 偏好 特征 ,显著 降低 了 社区 成 员 的 
HEE. 
.三 该 方法 适用 于 社区 用 户 数量 较 少 的 场景 。 然 而 在 
大 员 社 交 网 络 中 ,社区 的 成 员 和 结构 经 常 变化 ,此 时 基 
于 单 用 户 画 像 融 合 的 社区 画像 方法 则 效率 较 低 。 此 
外 ,该 方法 未 充分 利用 用 户 社会 关系 数据 ,容易 导致 画 
像 误差 ,不 能 全 面 揭示 社区 特征 。 
2.2 ”基于 用 户 数据 的 社区 画像 

基于 用 户 数据 的 社区 画像 方法 则 通过 分 析 社区 用 
户 数据 ,利用 相应 的 画像 技术 直接 生成 社区 画像 "2 。 
该 方法 充分 利用 了 用 户 个 人 数据 ,行为 数据 ,社会 关系 
数据 和 UGC 等 各 类 数据 ,可 以 有 效 提 高 画像 精度 ,是 
最 常用 的 社区 画像 方法 。 根 据 画像 维度 的 不 同 ,该 方 
法 可 分 为 社区 行为 画像 .社区 主题 画像 和 社区 传播 画 
像 3 种 。 
2.2.1 社区 行为 画像 ”用户 参与 社区 的 行为 包括 发 
布 信息 ,分享 观点 、 关 注 其 他 用 户 等 ,通过 分 析 这 些 行 
为 数据 可 揭示 社区 共同 的 行为 兴趣 特征 。 基 于 用 户 的 
关注 .转发 与 评论 行为 ,M. Akbari 和 T. S. Chua!” 提出 


点 影响 的 局 限 ,取得 了 较 高 质量 的 社区 行为 画像 。 

上 述 画 像 方法 是 通过 定量 分 析 用 户 行为 数据 , 生 
成 用 户 的 群体 行为 特征 ,进而 实现 社区 行为 画像 。 但 
用 户 行为 数据 存在 一 定 的 模糊 性 和 随机 性 ,因此 还 需 
要 从 定性 的 角度 进行 补充 和 完善 。 姚 龙 飞 和 何 利 
力 ” 设 计 一 个 改进 的 相似 度 算法 来 计算 用 户 定性 仿 
好 与 定量 偏好 的 相似 度 , 将 难以 量化 的 用 户 行为 转化 
成 云 模 型 标签 来 对 社区 用 户 的 群体 行为 进行 画像 ,该 
方法 可 有 效 分 析 用 户 的 不 确定 与 模糊 性 行为 特征 。 
2.2.2 社区 主题 画像 ”社区 主题 画像 通过 生成 一 系 
列 主题 来 刻画 社区 内 容 特征 ,其 核心 是 如 何 准 确 、 高 效 
挖掘 社区 的 主题 。 主 题 模型 是 一 系列 基于 概率 模型 、 
旨 在 发 现 大 规模 文档 中 隐 性 主题 结构 方法 的 统称 ,于 
2003 年 由 D.M. Blei ”提出 。 在 主题 模型 中 ,文档 可 
表示 为 一 系列 主题 的 概率 分 布 ,而 主题 则 表示 成 作 一 
系列 关键 词 的 概率 分 布 “。 林 燕 霞 和 谢 湘 生 ”基于 
隐 狄 利克 雷 分 布 (Latent Dirichlet Allocation , LDA ) 主题 
模型 挖掘 社区 用 户 的 兴趣 主题 ,利用 余弦 相似 度 和 多 
维 标 度 法 (Multidimensional Scaling , MDS ) 等 相似 性 分 
析 方 法 对 用 户 及 其 感 兴趣 的 关键 词 进行 聚 类 ,进而 发 
现 群 体 的 主题 偏好 。 孟 琳 '” 基于 作者 - 主题 模型 来 
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挖掘 实验 室 、 科 人 研 团 队 以 及 科研 机 构 的 兴趣 主题 。 
Marui 等 .1 利用 神经 概率 语言 模型 ( Neural Probabilis- 
tic Language Model , NPLM ) 来 分 析 社 区 内 容 中 广泛 存 
在 的 “一 词 多 义 ” 现 象 ,发 现 相同 的 关键 词 在 不 同 社区 
中 的 不 同 含义 ,进而 实现 更 精准 的 社区 主题 画像 。 
除了 主题 挖掘 的 算法 外 ,社区 主题 画像 质量 
赖 于 关键 词 规 范 化 .结构 化 与 语义 化 组 织 程度 。 
Salehi 等 所 通过 增加 关键 词 词性 标注 和 情感 标注 ， 四 
丰富 化 关键 词 的 语义 信息 ,进而 分 析 用 户 深层 次 的 情 
感 信息 , 细 粒 度 地 揭示 社区 对 不 同 主题 事件 的 情感 态 
度 。 张 海 DR lle ni 
关系 ,进而 挖掘 社 区 主题 之 间 的 层级 . 理 含 等 关系 , 实 
现 多 维度 的 社区 主题 画像 。 此 外 ,B，Amini 等 ” 、 贾 
伟 洋 和 石 季 辉 等 “用 更 复杂 的 本 体 来 描述 社区 主 
题 宫 间 的 语义 关系 ,实现 社区 主题 之 间 的 自动 关联 与 
AUER. 
CO 在 大 型 社交 网 络 中 ,社区 主题 的 产生, 发展, 转移 
ABK. 动态 社区 主题 画像 能 及 时 反映 社区 主题 的 发 
展 变 化 过 程 ， RAIDAN L. Tang 等 "提出 一 种 
基 开 分 类 的 动态 社区 主题 画像 方法 ， 该 方法 采用 本 体 
Ae ERTIK HER A SA AF ,利用 贪 焚 算 法 随 着 社区 
了 要 的 变化 对 本 体 模型 不 断 修正 ,实现 社区 主题 的 动 


i 
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.223 社区 传播 画像 ”社区 传播 画像 从 信息 传播 的 
角 提 刻画 社区 特征 ,根据 传播 对 象 的 不 同 可 分 为 用 户 
Pe iy eee Le ee 
播 画像 研究 的 信息 通常 是 主题 ,通过 分 析 主 题 在 用 户 
或 祁 区 层面 的 传播 概率 ,可 以 有 效 地 揭示 用 户 及 社区 
的 主题 偏好 ,对 合作 预测 、 熏 情 监 测 等 应 用 具有 重要 意 
义 。 


用 户 层面 信息 传播 旨 在 挖掘 用 户 之 间 的 信息 传播 
特征 与 规律 ,如 Y. 本 Zhu 等 ”通过 挖掘 用 户 发 表 信息 
的 内 容 及 其 关联 关系 ,来 预测 信息 在 特定 用 户 之 间 的 
传播 概率 ;B. D. Wang °°" 则 从 用 户主 题 偏好 用户 
影响 力 以 及 主题 依赖 关系 等 角度 来 计算 主题 在 用 户 之 


言 息 传播 的 三 要 素 , 即 用 户主 题 偏好 、 社 区 主题 偏好 与 
主题 热度 ,同时 实现 了 社区 主题 画像 和 主题 传播 画像 。 
2.3 基于 社区 差异 性 画像 

基于 社区 差异 性 画像 方法 分 为 DGP 和 EDCP 两 
种 ,其 中 DGP 从 社交 网 络 整体 视角 分 析 与 计算 社区 成 
员 与 网 络 中 其 他 社区 成 员 的 差异 ,而 EDCP 则 只 考虑 
社区 成 员 和 与 其 有 紧密 关系 的 社区 外 成 员 之 间 的 差 
异 。DGP 将 社区 与 社区 之 外 的 节点 分 为 两 类 ,通过 选 
取 在 社区 内 频繁 出 现 , 但 在 社区 外 很 少 出 现 的 特征 来 
进行 社区 画像 ””。DGP 需要 计算 整个 社交 网 络 的 所 有 
特征 ,其 时 间 复 杂 度 和 空间 复杂 度 都 很 高 ,效率 较 低 。 
考虑 到 社区 相对 于 整个 社交 网 络 来 说 规模 较 小 ,L 
Tang 等 ”对 DGP 进行 了 改进 ,提出 了 EDGP Wik. 
EDGP 并 不 逐一 计算 社区 与 网 络 中 其 他 社区 的 差异 
性 , 仅 将 与 该 社区 有 紧密 联系 的 部 分 社区 纳入 差异 性 
计算 范畴 。DGP 与 EDGP 方法 比较 见 图 3。L. Tang 等 
研究 发 现在 社交 网 络 规模 较 大 时 ,EDGP 和 DGP 社区 
画像 的 效果 相近 ,但 EDGP 的 效率 要 高 得 多 。 


3 DGP 与 EDGP Fie! 


2.4 社区 画像 方法 比较 
目前 ,基于 用 户 相 似 性 画像 是 研究 与 应 用 的 热点 ， 


但 是 该 方法 倾向 于 选择 普遍 流行 的 特征 ,其 应 用 存在 
一 定 的 局 限 性 。 如 在 选择 一 些 宽泛 的 关键 词 (如 音乐 、 

影 \ 阅 读 等 ) 来 描述 用 户 或 社区 偏好 时 ,由 于 这 些 关 
键 词 在 很 多 社区 中 都 是 通用 的 ,此 时 基于 相似 性 画像 
方法 就 不 能 准确 发 现 社区 .刻画 社区 特征 。 而 基于 社 


间 的 传播 概率 。 由 于 用 户 行为 的 不 确定 性 与 不 稳定 
性 ,从 单 用 户 层面 分 析 信 息 传 播 规 律 容易 出 现 偏 差 ， 
此 从 社区 层面 来 整体 分 析 信息 的 传播 规律 成 为 研究 的 
热点 ,如 Y， Han 和 J. Tang h 通过 结合 用 户主 题 偏好 
和 社区 主题 偏好 ,对 信息 传播 进行 建 模 和 预测 ;Z.T. 
Hu 等 2 利用 动态 构建 主题 的 方法 ,系统 分 析 了 文献 、 
交通 .音乐 .运动 以 及 电 景 A 页 信息 的 
传播 路 径 与 传播 规律 。H. Y. Cai ”进一步 归纳 了 社区 
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区 差异 性 画像 方法 则 倾向 于 选择 使 社区 区 别 于 其 他 社 
区 的 特征 来 进行 画像 ,在 社区 偏好 相近 或 社区 特征 差 
异 不 明显 的 情况 下 ,表现 良好 。L.， Tang 等 ”在 Blog- 
Catalog 和 LiveJournal 两 个 大 型 数据 集 上 比较 了 这 两 种 
方法 ,发 现 当 特征 差异 不 明显 时 ,基于 社区 差异 性 画像 
方法 在 特征 提取 和 特征 选择 上 更 具备 区 分 度 , 能 更 好 
地 发 现 社区 刻画 社区 特征 。 在 实际 应 用 中 ,可 根据 应 
用 场景 和 具体 需求 来 选择 合适 的 社区 画像 方法 。 社 区 
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画像 方法 比较 如 表 3 所 示 : 
表 3 社区 画像 方法 比较 
画像 方法 画像 维度 核心 算法 优点 缺点 适用 场景 
基于 用 户 相似 性 画像 ”基于 单 用 户 画 像 融合 社区 偏好 ”聚合 策略 画像 算法 简单 无 法 准确 反映 社区 群 ”小 规模 社交 网 络 
体 偏好 
基于 用 户 数据 “社区 行为 “分 类 聚 类 /主题 模 ”充分 利用 多 类 型 用 户 ”难以 克服 用 户 数据 异 ”用 户 偏好 相似 度 较 高 
社区 主题 ”型 /机 器 学 习 等 数据 ,社区 画像 更 精准 。” 质 性 问题 的 社交 网 络 
社区 传播 
基于 社区 差异 性 画像 DGP 社区 主题 “分 类 / 聚 类 等 可 用 于 社区 偏好 相似 ”算法 的 时 间 .空间 复杂 小 规模 , 且 社 区 特征 差 
度 较 高 的 社交 网 络 度 较 高 异 不 明显 的 社交 网 络 
EDGP 社区 主题 ” 聚 类 /复杂 网 分 析 等 降低 DGP 算法 时 空 复 ”不 适用 较 小 规模 社区 = 较 大 规模 社交 网 络 
Tie AF 


3 社区 画像 应 用 场景 


从 服务 类 型 的 角度 来 看 ,社区 画像 应 用 场景 可 分 
为 面向 精准 推荐 服务 ,面向 知识 发 现 服务 与 面向 信息 
传 儿 服务 3 类 。 

Q 面向 精准 推荐 服务 

30N 丰富 用 户 画像 ”基于 单 用 户 画 像 的 个 性 化 推 
HR — Fy ZS AY FP TF BEE BB 
ma — Ty et FH FF EE ERS 5 ME 
HMDA EEL AERA E R. TAKMAT 
PARIA IEE ERRA EEE SIL 
的 入 会 关系 UGC 等 数据 ,可 有 效 规避 单 用 户 画像 的 信 
巧 亩 音 与 数据 稀 琉 风险 ,打破 信息 草 房 ,提供 更 精准 、 
ze 性 化 推荐 服务 。 同 时 社区 画像 可 以 包 
ERMEE IUEN 


,解决 冷 
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来 能 用 户 进行 个 性 化 推荐 ,不 仅 有 效 地 提高 了 推荐 准 
HZ 还 部 分 解决 了 冷 启动 问题 。 
3.1.2 支持 群体 推荐 推荐 服务 的 对 象 不 仅 是 单个 
用 户 , 还 可 以 是 群体 社区 等 。 社 区 画像 可 以 有 效 支 持 
面向 群体 或 社区 的 精准 推荐 。 许 多 学 者 利用 社区 画像 
来 提高 群体 推荐 服务 的 满意 度 , 如 E. Ntoutsi 等 、C 
R. Su 等 和 C，Zhang 等 “利用 社区 画像 进行 影视 
的 群体 推荐 ,I. Christensen 等 ”利用 社区 画像 进行 旅 
游 领域 的 群体 推荐 , 何 娟 ”利用 社区 画像 进行 图 书 领 
域 的 群体 推荐 。 
3.2 面向 知识 发 现 服务 
3.2.1 辅助 社区 发 现 社区 发 现 是 社区 画像 的 基础 
le 社区 画像 则 是 对 社区 发 现 结果 的 应 用 与 反 
PEN 。 如 社区 内 容 画 像 从 社区 主题 .兴趣 偏好 和 和 群 
nn 度 揭示 社区 内 部 结构 ;社区 传播 画像 
描述 社区 之 间 信 息 的 交互 行为 ,揭示 社区 外 部 结构 ,这 
些 都 是 社区 发 现 的 重要 研究 内 容 。 此 外 ,社区 画像 还 


Pa 
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可 以 提供 更 丰富 的 社区 信息 ,如 社区 主题 .社区 偏好 
等 ,可 以 更 好 地 辅助 社区 发 现 忆 。 如 A. Salehi 等 "1 和 
H. Y. Cai 等 “将 社区 画像 与 社区 发 现 过 程 相互 结合 ， 
利用 社区 主题 画像 和 情感 画像 来 精准 地 进行 社区 发 
现 。 
3.2.2 ”社区 信息 可 视 化 ”社区 画像 为 社区 信息 可 视 
化 提供 了 更 丰富 的 数据 类 型 与 语义 信息 ,支持 更 直观 
地 揭示 社区 内 容 "*?1 ,可 用 于 帮助 分 析 社 区 结构 I 
别 重要 用 户 .揭示 信息 的 传播 路 径 等 。 如 J D. Cruz 
等 中 H.Y. Cai 等 Z.T. Hu 等 ”在 社区 画像 的 基 
础 上 ,利用 社区 信息 可 视 化 揭示 社区 之 间 的 交互 关系 、 
关联 强度 以 及 信息 传播 途径 。 

3.2.3 寻求 合作 与 辅助 决策 “社区 画像 可 帮助 用 户 
寻求 更 有 效 的 合作 方式 和 提供 更 科学 的 决策 。 如 B. 
Khalid 等 提出 了 一 种 利用 社区 画像 来 提高 众 包 效 率 
的 方法 ,该 方法 在 标记 社区 用 户 的 专业 知识 和 兴趣 偏 
好 基础 上 ,进一步 生成 群体 偏好 与 知识 主题 ,从 而 帮助 
决策 者 与 需求 方 快速 寻找 到 合作 团队 ,高 效 解 决 了 众 
包 任 务 与 目标 专家 不 匹配 的 问题 。J. E. A. Gomes 
等 中 利用 社区 画像 来 分 析 作 者 合 著 网 络 , 提 出 科学 家 
社区 之 间 的 合作 模式 ,并 进行 合作 预测 ,这 在 学 术 合 
作 、 知 识 发 现 领 域 有 重要 的 意义 。 

3.3 面向 信息 传播 服务 

3.3.1 网 络 营销 推广 rap adage 
社区 偏好 以 及 社区 之 间 的 信息 传播 模式 。 这 些 信息 
支持 定向 广告 投放 与 品牌 推广 ,对 网 络 营 a 
MAMME, A Z. T. Hu EPT 利用 社区 画像 识 
别 具 有 高 影响 力 的 社区 ,并 利用 这 些 社区 进行 精准 网 
络 营销 。 

3.3.2 网 络 熏 情 监测 “社区 画像 可 以 识别 核心 用 户 
与 热点 主题 ,通过 分 析 他 们 之 间 的 关系 ,挖掘 社区 信息 
传播 模式 ,进而 预测 社区 用 户 的 信息 传播 行为 ,这 对 与 
情 监测 与 管理 至 关 重 要 。 管 理 层 可 依据 社区 用 户 行 
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为 .兴趣 主题 及 其 影响 力 等 社区 画像 信息 ,及 时 阻 断 消 
极 的 网 络 与 论 ,引导 积极 的 社会 与 论 。 如 H. Y. Cai 
利用 社区 画像 来 监测 社会 事件 ,实时 分 析 事 件 发 展 动 
态 ,并 预测 事件 演变 。 
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(3) 基于 差异 性 社区 画像 。 随 着 用 户 的 增加 ,以 
及 社交 网 络 平台 之 间 合 作 甚至 合并 的 增多 ,社交 网 络 
规模 越 来 越 大 ,用 户 或 社区 之 间 的 特征 差异 也 逐渐 变 
模糊 。 从 方法 层面 来 看 , 现 有 画像 方法 以 相似 性 画像 
为 主 , 该 方法 只 适用 于 较 小 规模 且 用 户 差异 性 明显 的 
社交 网 络 。 在 大 规模 社交 网 络 中 ,用 户 或 社区 的 特征 


社区 画像 可 充分 利用 用 户 数据 ,全 面 刻画 社区 特 
征 ,为 用 户 提供 更 精准 的 推荐 服务 ,深层 次 知识 发 现 服 
务 与 高 效 的 信息 传播 服务 ,具有 重要 研究 意义 与 应 用 
价值 。 国 外 对 社区 画像 的 研究 较 早 ,许多 研究 将 UGC 
与 用 户 关 系 等 多 种 数据 考虑 在 内 ,分 析 的 数据 类 型 丰 
富 多 样 , 且 注 重 画 像 相关 基础 算法 的 研究 ,对 社区 画像 
应 用 研究 也 较 广泛 。 相 比较 而 言 ,国内 社区 画像 的 研 
完 通 常 只 关注 UGC 或 者 用 户 关系 等 单一 维度 数据 , 算 
法 独 关 研究 很 少 ,应 用 场景 主要 面向 推荐 系统 。 但 总 


像 为 主 ,基于 社区 差异 性 画像 研究 较 少 ;从 应 用 层面 来 


看 .自前 社区 画像 研究 聚焦 于 推荐 服务 社区 发 现 等 人 


区 古 像 揭示 了 社区 的 结构 特征 、 交 互 模式 、 行 为 模式 和 


发 展 模式 ,对 未 来 社区 结构 预测 和 演化 发 展 具 有 重要 
AE 。 在 大 型 社交 网 络 中 ,社区 结构 ,社区 成 员 kE 
区 主题 ,社区 行为 以 及 社区 信息 传播 等 社区 画像 要 素 
都 是 不 断 变化 的 ,如 何 及 时 全 面 反映 这 些 信息 对 社区 
画像 应 用 来 说 非常 重要 。 因 此 ,通过 对 各 类 社区 数据 
实时 ,综合 建 模 , 构 建 全 景 式 动态 社区 画像 ,将 是 未 来 
社区 画像 研究 的 热点 与 难点 。 

(2) 基 于 知识 图 谱 的 社区 画像 。 知 识 图 谱 是 一 种 
对 多 源 异 构 数据 进行 多 维度 . 细 粒 度 知 识 挖掘 与 语义 
关联 的 新 型 知识 组 织 技术 ,是 知识 互联 的 基础 。 从 技 
术 层 面 来 看 ,基于 知识 图 谱 的 社区 画像 是 一 个 重要 的 
研究 方向 ,在 实践 应 用 中 具有 重要 的 意义 。 基 于 知识 
图 谱 技术 进行 大 规模 社区 画像 ,不 仅 可 以 充分 利用 用 
户 数据 来 挖掘 社区 的 主题 网 络 .传播 路 径 等 信息 ,还 可 
以 丰富 社区 的 语义 主题 ,实现 社区 主题 的 语义 推理 与 
知识 发 现 ,为 语义 搜索 .智能 问答 .推荐 系统 ,数据 可 视 
化 ,大 数据 分 析 与 决策 等 应 用 提供 数据 支撑 。 
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差异 不 明显 ,需要 进一步 深入 研究 高 效 的 ,差异 性 敏感 
的 社区 画像 方法 。 

(4) 社 区 画像 应 用 场景 泛 化 。 社 区 画像 应 用 前 景 
需 进 一 步 泛 化 。 如 何 通过 丰富 社区 节点 语义 信息 来 指 
导 精 准 社区 发 现 , 以 及 如 何 将 社区 画像 在 推荐 服务 中 
的 应 用 进一步 泛 化 ,用 于 支持 更 加 复杂 的 辅助 决策 、 寻 
求 潜在 合作 等 知识 服务 ,这 些 都 需要 结合 具体 应 用 需 
求 做 进一步 探索 与 尝试 。 
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Abstract: [ Purpose/ significance | Community profiling is important for solving the overload of social network infor- 
mation and helping to achieve personalized and deep knowledge services. This literature review presents the research status 
in community profiling, and analyzes the corresponding techniques, methods and applications, and aims to provide ideas 
for further research and application of community profiling. [ Method/process | Based on the literature investigation, this 
paper reviews community profiling from three aspects; research content, techniques and methods, and application scenari- 
os. Moreover, the key features and weaknesses of the discussed techniques and methods are presented and several key re- 
search fields for future research are highlighted. [ Result/conclusion | It is found that the present research focuses on stat- 
ic user data, user similarity methods for profiling, and traditional applications such as recommended services and commu- 
nity discovery. At present, the research on community profiling is still in its infancy, and the data, techniques and meth- 
ods need to be enriched. It should have good prospects and wide application in the future. 
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